Введение

Антон Смирнов

2023-01-15

Критерий Пятницкого-Гукасова-Смирнова

Добро пожаловать в программу, реализующую критерий Пятницкого-Гукасова-Смирнова для поиска кластеров/разряжений в популяционных пространственных и временных данных. Чтобы процитировать нас или узнать подробности о работе критерия, используйте следующие статьи:

  1. Пятницкий, А. М. Кластеризация данных методом “расширения точек” / А. М. Пятницкий, В. М. Гукасов, А. С. Смирнов // Медицина и высокие технологии. – 2020. – № 2. – С. 9-14. – EDN NSGUTS.
  2. Пятницкий, А. М. Поиск кластеров событий в эпидемиологии и экологическом мониторинге / А. М. Пятницкий, В. М. Гукасов, А. С. Смирнов // Медицина и высокие технологии. – 2020. – № 4. – С. 29-37. – EDN ULSCTY.
  3. Пятницкий, А. М. Поиск кластеров событий для данных, представленных в виде частотных таблиц, и его применение в эпидемиологии и экологическом мониторинге / А. М. Пятницкий, В. М. Гукасов, А. С. Смирнов // Медицина и высокие технологии. – 2021. – № 2. – С. 7-17. – DOI 10.34219/2306-3645-2021-11-2-7-17. – EDN YYPGDT.
  4. Пятницкий, А. М. Поиск кластеров в популяционных данных / А. М. Пятницкий, В. М. Гукасов, А. С. Смирнов // Медицина и высокие технологии. – 2021. – № 3. – С. 63-71. – DOI 10.34219/2306-3645-2021-11-3-63-71. – EDN ZURQAI.

Инструкция

  1. Пример готовых данных можно скачать в вкладке “Примеры данных”
  2. Распаковываем архив в любую пустую папку
  3. Необходимо определить распределение размеров кластеров/разряжений и распределение максимального размера кластеров/разряжений методом Монте-Карло. Для этого
    • Загружаем в сервис все распакованные файлы из архива.
    • Выбираем необходимые параметры (про пределы см. принцип работы критерия)
    • Запускаем симуляцию
    • Сохраняем результат
  4. Далее можно воспользоваться самим критерием:
    • Загружаем в сервис все распакованные файлы из архива.
    • Выбираем необходимые параметры: столбцы с данными, режим работы, т.е. какой столбец будет использован для расчетов)
    • При необходимости внести изменения или посмотреть значение в регионе, можно кликнуть на регион и поменять значение величины при необходимости.
    • Запускаем расчет
    • Сохраняем результат

Принцип работы критерия

При изучении пространственно-временной изменчивости в числах событий используются два представления исходных данных:

  1. event-based datа, когда известны координаты событий (точечные данные)
  2. population-based data, когда известно лишь общее число событий в каждой области за определенный промежуток времени (частотные данные).

Предлагаемый критерий может быть использован в обоих случаях, однако, данный сервис предполагает работу только с частотными данными.

Даны частоты событий для каждой i-ой области, обозначим их \(O_i\) Возможны две постановки задачи:

  1. разыскиваем пространственные неоднородности в один и тот же момент времени (hot spots, cold spots, то есть кластеры и разряжения)
  2. разыскиваем области, в которых количество событий значимо увеличилось или уменьшилось.

В первом случае области должны быть выбраны так, чтобы численности популяций в них были одинаковы. Во втором случае области произвольны и могут, например, соответствовать административным регионам (предполагается, что размер популяции в каждой области не изменился).

  1. Даны частоты для каждой области, назовем их \(O\)
  2. Допустим, размеры популяций в каждой области одинаковыми и средняя частота по всем ячейкам не мала \(\overline{O}>5\)
  3. Тогда для каждой области вводятся вероятности \(p_i\) (см. ниже), которые в случае справедливости \(H_0\) имеют равномерное распределение и две пороговые вероятности \(p_{down}\), \(p_{up}\). Пороговые вероятности выделяют области, для которых есть подозрение на то, что имеется неоднородность (кластер или разряжение, увеличение частоты событий с течением времени или уменьшение).
  • Для пространственной неоднородности \[\begin{equation} p_i = \Phi (\frac{O_i - \overline{O}}{\sqrt{ \overline{O}}}) \end{equation}\]

  • Для сравнения моментов времени\[\begin{equation}p_i = \Phi (\frac{O^{t_1}_i - O^{t_2}_i}{\sqrt{O^{t_1}_i + O^{t_2}_i}})\end{equation}\]

  • \(\Phi (z)\) - функция Лапласа.

  1. Соприкасающиеся ячейки(группы), попадающие в диапазон \([0;p_{down}]\) - разряжения
  2. Соприкасающиеся ячейки(группы), попадающие в диапазон \([p_{up};1]\) - кластеры
  3. Статистика для кластеров \[\begin{equation} S_n = -2\sum_{k=1}^{n}{\ln{\frac{p_k}{p_{down}}}} \end{equation}\]
  4. Статистика для разряжений \[\begin{equation} S_n = -2\sum_{k=1}^{n}\ln{\frac{1 - p_k}{1 - p_{up}}} \end{equation}\]
  5. При справедливости \(H_0\) справедливо \[\begin{equation}S_n \sim \chi^{2}_{2n}\end{equation}\]\[\begin{equation}n \sim Uniform(0;1)\end{equation}\]
  6. Для каждой исследуемой области строится критическая область S(n). Если кластер/разряжение выходит за его границы, то он/оно считается статистически значимым.